【セッションレポート】 データ基盤のコストを最適化するベストプラクティス(AWS-12) #AWSSummit

【セッションレポート】 データ基盤のコストを最適化するベストプラクティス(AWS-12) #AWSSummit

AWS Summitのセッション「データ基盤のコストを最適化するベストプラクティス」を視聴しましたのでレポートをお届けします。

Clock Icon2024.6.30

こんにちは。サービス開発室の武田です。

2024年6月20日〜21日、AWS Summit Japanが開催されました。7月5日まではオンデマンド配信をしているため、気になるセッションなどがあればぜひ忘れずに視聴することをお勧めします。

今回は「データ基盤のコストを最適化するベストプラクティス」を視聴しましたのでレポートをお届けします。

スピーカー

  • 関山 宜孝
    • アマゾン ウェブ サービス ジャパン合同会社 Principal Big Data Architect, AWS Glue

セッション概要

幅広い用途でのデータ活用が広がる中、データ活用とその基盤のコストの最適化は多くの企業において重要な関心ごととなっています。このセッションでは、AWS で費用対効果の高いデータ基盤を構築・運用するベストプラクティスを解説します。ワークロードに適したサービスやオプションを選択し、コストを犠牲にすることなくスケーラブルでパフォーマンスの高いアーキテクチャを設計します。AWS Glue や Amazon EMR、Amazon Athena、Amazon S3 などのサービスを適切に組み合わせ、多様なコスト削減オプションを実装することで、費用対効果の高いデータ基盤を実現しコストを最適化します。


引用元:データ基盤のコストを最適化するベストプラクティス

レポート

AWSで費用対効果の高いデータ基盤を構築・運用するベストプラクティスを解説。ワークロードに適したサービスやオプションを選択し、コストを犠牲にすることなくスケーラブルでパフォーマンシの高いアーキテクチャを設計する。

AWSを用いたデータ活用

  • データソースから実際に検索などで使えるようにするまでにステップがある
    • データソース→生データ→加工済みデータ→データマート→アドホッククエリやダッシュボード
    • 中間データはAmazon S3で保存する
    • 加工にはAmazon EMRやAmazon Glueが使用できる
    • アドホッククエリではAmazon Athenaなどが提供されている
  • データ基盤のコストの課題
    • サービス横断でコストが発生する
    • データ量と処理に強く依存する
    • 予測が難しい
    • 適切な設計により大幅なコストダウンが可能
  • CFM(Cloud Financial Management)フレームワーク
    • Well-Architected Frameworkで定義されたコスト最適化プロセス
    • 可視化→最適化→実践→予測・計画のサイクルを回す

コストの可視化

  • If you can't see it, you can't change it
  • コストの可視化を考える上でデータ基盤の主なコスト4項目
    • ストレージ
    • データ転送
    • データパイプライン
    • クエリ
  • コスト可視化の基盤となるサービスはCost Explorer
    • 利用料に基づくコストを確認する無料ツール
    • AWS費用を監視・最適化
    • デフォルトで直近14ヶ月分のコストを遡って分析(最大38ヶ月)
    • 将来の12ヶ月分のコストを予測
    • コスト配分タグを付与することでタグごとに管理可能
  • Amazon S3 Storage Lens
    • Amazon S3コンソール上のインタラクティブなダッシュボード
    • オブジェクトストレージの利用状況を組織全体で可視化
    • リージョン、ストレージクラス、バケット、プレフィックスでドリルダウン
    • 利用料とアクティビティに関する詳細なメトリクス

コストの最適化

  • ストレージコストの最適化
    • ストレージクラスの活用
    • ライフサイクルの活用
    • データの圧縮
    • 不要なデータの自動削除
  • データ転送コストの最適化
    • データ転送経路の最適化
    • ローカリティを考慮した設計
    • 圧縮による転送効率の向上
    • 必要最小限のレプリケーション
  • データパイプラインコストの最適化
    • 適切な料金プランの選択
    • オートスケーリングの活用
    • サーバーレスの活用
    • ジョブのチューニング
    • 処理対象データの削減
    • 差分データ反映の最適化
    • データクオリティ管理の導入
  • クエリコストの最適化
    • データレイアウトの最適化
    • データ形式や圧縮形式の最適化
    • クエリのチューニング
    • クエリ結果の再利用
    • フェデレーテッドクエリの活用

おわりに

データ基盤のコストの、可視化と最適化に絞って紹介した。一度やっておしまいではなく、中長期にわたって継続して行うジャーニーです。段階的にコスト最適化することが重要。

最後に

典型的なデータ基盤を例として、アーキテクチャの全体像とコストが発生する部分それぞれについて最適化のヒントとなる内容でした。特に「コスト最適化」の詳細が気になる方は動画を視聴してみることをお勧めします。

長く運用を続けているシステムだと、いつの間にか無駄なコストがかかってしまっていることはよくあります。まずは可視化するところから始めてみることで、コスト最適化につながるかもしれません。

この記事をシェアする

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.